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置信 区 间 宽 度 等 高 线 图 在 线性 混合 效应 模型 样本 量规 划 中 的 应 用 
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摘要 线性 混合 效应 模型 在 分 析 具 有 髓 套 结构 的 心理 学 实验 数据 时 有 具有 明显 优势 。 本 文 提 出 
了 置信 区 间 宽 度 等 高 线 图 用 于 该 模型 的 样本 量规 划 。 通 过 等 高 线 图 ， 玉 


效应 的 两 类 典型 模型 , 通过 两 个 模拟 研究 , 采用 基于 蒙特 卡 洛 模拟 方法 , 探索 效应 量 、 
随机 效应 大 小 和 被 试 变量 类 型 对 置信 区 间 宽 度 等 高 线 图 及 样本 量规 划 结 果 的 影响 。 
关键 词 线性 混合 效应 模型 ， 多 水 平 模 到 


型 ， 检 验 力 分 析 ， 效 应 量 ， 置 信 
1 5| 


角 定 同时 符合 检验 力 、 
效应 量 准确 性 以 及 置信 区 间 宽 度 要 求 的 被 试 量 和 试 次 数 。 结 合 关注 被 试 内 实验 效应 和 被 试 变 
量 调节 


Dll 


区 间 宽 度 


近年 来 , 心理 学 


完 者 对 学 术 不 端 和 
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FH] 


重复 性 问题 的 讨论 日 趋 激烈 。 国内 外 越 来 
E 行 预 注册 (pre-register) 制 度 ， 能 够 有 效 避 人 免 根据 结果 决定 
的 不 良 行为 (例如 , p-hacking), 促进 


多 的 学 术 期 刊 扒 


(&& 


rå 


是 否 继续 收集 数据 
科研 过 程 和 结果 的 公开 透明 , 提高 研究 的 可 

、 试 次 数 等 与 研究 设计 相关 的 要 素 需 有 明 胡 
由 。 如 何 针对 特定 的 统计 模型 开展 样本 量规 划 ， 是 心 到 


性 混合 效应 模型 ,探索 使 月 


E 
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et al., 2022)。 预 注册 时 ， 对 被 试 
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重复 性 (Nosek 
规划 和 充分 理 


学 研究 者 关心 的 问题 。 本 研究 基于 线 


模拟 方法 结合 检验 力 和 效应 量 准 而 
通过 开发 直观 的 置信 区 间 宽 度 等 
为 开展 研究 设计 、 保 证 研究 质 上 


性 开展 样本 量规 划 的 范式 ,并 


= 
= 


高 线 图 ， 方 便 应 用 研究 者 确定 符合 要 求 的 被 试 量 和 试 次 数 ， 
提供 方法 支持 。 


1.1 线性 混合 效应 模型 的 样本 量规 划 问 题 


随 着 研究 问题 的 深入 和 数据 收集 手段 的 进 
越 来 越 普 遍 。 例 如 ， 心 理 语言 学 实 


语言 学 实验 研究 通 
速度 不 同 ， 会 造成 观察 到 的 实验 效应 有 


步 ， 含 有 随机 效应 的 刺激 和 髓 套 结构 的 设计 


EN 


常会 使 用 词语 作为 刺激 ,但 不 同 词语 诱发 的 反应 


三 | 
部 分 是 | 


不 同 的 词语 刺激 引起 的 (Barr et al., 2013)。 


混淆 了 实验 效应 与 随机 效应 , 会 导致 第 I 类 错误 和 


此 时 ， 以 传统 方差 分 析 为 代表 的 方法 由 了 
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检验 力 的 估计 偏差 (Barr et al., 2013; Judd et aL, 2017). 2X PE YR & 2 DY BE AY (Linear 
Mixed-Effects Models，LMEMSs) 可 以 避免 由 于 对 被 试 接受 的 同一 条 件 下 所 有 和 刺激 求 均值 等 方 
式 (如 ， 重 复 测量 方差 分 析 ) 造 成 的 信息 损失 ， 且 同时 灵活 考虑 不 同 原因 (如 ， 刺 激 随机 取样 、 
被 试 嵌 套 结构 等 ) 造 成 的 随机 效应 。 因此, LMEMs 在 心理 学 实验 中 的 应 用 越 来 越 广泛 (Barr et 


al., 2013; Brauer & Curtin, 2018; Judd et al., 2017; Lee, 2018) 。 在 web of science 中 检索 近 五 年 
的 心理 学 实验 类 论文 ， 使 用 LMEMs 约 是 使 用 方差 分 析 的 1.5 倍 。 

然而 ， 目 前 国内 LMEMs 的 应 用 还 很 少 。 例 如 ，2020-2022 年 我 国 心理 学 顶 刊 《心理 学 
报 》 上 发 表 的 181 篇 实验 类 文章 中 ， 仅 9 篇 使 用 了 LMEMs， 且 其 中 的 5 篇 没有 阔 述 确定 样 
本 量 的 理由 ，3 篇 应 用 G * power 近似 得 到 所 需 样本 量 ， 仅 有 ! 篇 应 用 simr 软件 包 采 用 模拟 
方法 基于 检验 力 分 析 确 定 样 本 量 。 制约 该 模型 广泛 应 用 的 一 个 重要 原因 是 , 设计 中 随机 效应 
的 增加 带 来 了 模型 复杂 程度 的 增加 ， 导 致 常用 的 样本 量规 划 软 件 (例如 G * power 等 ) 不 再 适 
用 , 研究 者 对 基于 LMEMs 如 何 科学 地 规划 实验 设计 ， 设 置 合理 的 被 试 量 和 试 次 数 感到 无 所 
适 从 ， 急 需 方 便 易 用 的 程序 或 图 示 ， 指 导 样 本 量规 划 。 


1.2 基于 检验 力 分 析 规 划 样本 量 


传统 样本 量规 划 主 要 基于 虚无 假设 显著 性 检验 (Null Hypothesis Significance Test, NHST) 
的 检验 力 分 析 , 要 求 样 本 量 必须 使 检验 力 达 到 预 设 标准 。 检验 力 分 析 可 分 为 公式 推导 方法 和 
基于 蒙特 卡 洛 模拟 方法 (例如 ，Arend & Schafer, 2019)。 公 式 推导 方法 含有 关于 分 布 的 强 假 
设 ， 当 数据 不 符合 时 可 能 得 到 有 偏差 的 结果 (Judd et al., 2017)。 基 于 蒙特 卡 洛 模拟 的 方法 是 
在 预 设 的 参数 下 基于 特定 模型 重复 生成 数据 ， 再 基于 模拟 数据 估计 参数 ,统计 所 有 
到 显著 性 结果 的 比例 。 其 优势 在 于 不 需要 推导 参数 分 布 , 能 够 处 理 非 正 态 分 布 的 数据 ,并且 
可 以 灵活 定义 模型 。 一些 学 者 已 经 开发 了 成 熟 的 RR 软件 包 (如 simr) 应 用 蒙特 卡 洛 模拟 的 方式 
计算 LMEMs 的 检验 力 (Green & MacLeod, 2016). 

为 了 方便 应 用 研究 者 基于 检验 力 分 析 确 定 适用 于 和 嵌 套数 据 分 析 的 合适 样本 量 ， 一 些 胡 
究 者 在 模拟 方法 的 基础 上 , 开发 了 直观 的 图 示 以 及 配套 程序 , 展示 不 同样 本 量 情 况 下 的 检验 
H, 为 样本 量规 划 提供 参考 。 应 用 最 广 的 是 以 样本 量 为 横 坐 标 , 检验 力 为 纵 坐标 的 折线 图 ( 例 
如 , Kumle et al., 2021)。 研 究 者 根据 预 设 检验 力 做 出 水 平 线 ， 与 折线 交点 所 对 应 的 横 坐 标 就 
是 满足 要 求 的 最 小 样本 量 。Murayama 等 (2022) 还 开发 了 生成 检验 力 折线 图 的 在 线程 序 。 但 
是 , 嵌 套 结构 的 数据 需要 确定 两 个 水 平 样本 量 , 不 同 实验 设计 下 增加 不 同 水 平 样本 量 的 成 本 
不 同 。 折 线 图 仅 能 固定 某 个 水 平 样本 量 ， 以 另 一 个 水 平 样本 量 为 横 坐 标 生 成 ,无 法 同时 呈现 
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两 个 水 平 样本 量 与 检验 力 的 关系 。Schultzberg 和 Muthén(2018) 将 水 平 1、2 样本 量 分 别 作为 
横 、 纵 坐标 ， 用 阴影 区 域 表示 符合 检验 力 要 求 的 两 个 水 平 样本 量 组 合 范围 。Baker 等 (2021) 
提出 了 检验 力 等 高 线 图 , 将 相同 检验 力 的 两 个 水 平 样本 量 组 合 的 点 连 成 等 高 线 , 用 多 条 等 高 
线 表示 不 同 检验 力 水 平 。 综 上 ， 对 于 府 套 数据 ， 研 究 者 需要 在 同一 个 图 内 观察 到 两 个 水 平 样 
本 量 在 检验 力 上 的 补偿 关系 , 并 在 考虑 实验 成 本 的 基础 上 综合 权衡 , 得 到 合适 的 各 水 平 样本 


E. 
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1.3 基于 效应 量 准 确 性 分 析 规 划 样 本 量 


以 上 总 结 的 样本 量规 划 图 示 仅 考虑 了 检验 力 。 但 是 ， 随 着 学 术 界 对 NHST 的 批判 ， 美 

国 统计 协会 发 表 了 关于 谨慎 使 用 NHST 的 声明 ， 强 调 应 避免 仅 报告 显著 性 ， 而 应 同时 报告 

TT 效应 量 (Wasserstein & Lazar, 2016) 及 其 区 间 估 计 的 结果 。 因 此 ， 一 些 学 者 提出 应 基于 效应 量 
外 性 分 析 开 展 样本 量规 划 。 

效应 量 准确 性 分 析 的 核心 是 控制 效应 量 置信 区 间 (Confidence Interval, CD S EE, RE 

表明 其 估计 越 准确 (Maxwell et al., 2008)。 有 研究 根据 期 望 的 CI 上 下 限 ， 倒 推 可 接受 的 最 大 

CI 宽度 (Usami, 2020)。 例 如 ， 在 效应 量 的 点 估计 值 为 0.5 的 情况 下 ， 计 算得 到 其 95% 置 信 区 


间 ( 以 下 简称 “95% CI”) HEA 0.6, M 95%CI 约 为 [0.2,0.8]。 根 据 Cohen(2013) 的 标准 ， 该 区 


准 


zu 


间 涵 盖 了 效应 量 小 、 中 、 大 的 条 件 (0.2,0.5,0.8)， 估 计 精 确 性 差 (Maxwell et al., 2008; Usami, 
2020)。 有 的 研究 直接 根据 不 同 CI 宽度 计算 对 应 的 最 小 样本 量 (例如 , Kelley & Rausch, 2006). 


总 之 ， 目 前 关于 如 何 确定 可 接受 的 最 宽 CI 宽度 仍 未 形成 一 致 结论 (例如 , Kelley et al., 2018). 
c 73 f Fa f ISLA Wt Fe AE T RUNE et VE fü E 7) prr ft e a A HOCH A) PEE AS ES, Hecht 
oO 和 Zitzmann(2021) 提 出 了 基于 被 试 数 和 时 间 点 的 总 体 表 现 图 ， 分 别 以 二 者 作为 横 、 纵 坐标 ， 
通过 收敛 比例 ,参数 估计 偏差 等 指标 计算 模型 拟 合 的 综合 表现 得 分 , 并 以 色 块 区 分 不 同 得 分 。 
研究 者 可 以 根据 色 块 ,权衡 得 到 合适 的 样本 量 组 合 。 但 该 图 并 未 考虑 检验 力 ， 并 且 色 块 仅 表 
示 综 合 得 分 ， 具 有 一 定 的 主观 性 ， 研 究 者 无 法 从 图 中 清晰 了 解 所 关心 的 参数 估计 的 准确 | 
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1.4 问题 提出 


综 上 ， 针 对 嵌 套 数据 的 样本 量规 划 需 同时 保证 检验 力 和 效应 量 准确 性 达到 要 求 。 然 而 ， 
已 有 的 方法 、 程 序 或 图 示 大 多 只 基于 其 中 一 个 目的 展开 (例如 , Arend & Schafer, 2019; 
Kumle et al., 2021; Usami, 2020), 尚 没有 图 示 能 够 方便 研究 者 同时 考虑 两 方面 要 求 规划 样本 
量 。 因 此 ， 本 研究 提出 CI 宽度 等 高 线 图 ， 采 用 蒙特 卡 洛 模拟 方法 进行 检验 力 和 效应 量 准确 
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性 分 析 , 在 图 中 同时 呈现 两 个 水 平 样本 量 不 同 组 合 下 的 检验 力 和 CI 宽度 情况 。 由 于 CI 宽度 
尚 没有 统一 标准 ， 本 研究 结合 已 有 研究 的 两 种 思路 ， 提 供 不 同 CI 宽度 下 的 样本 量 ， 建 议 在 


究 者 结合 期 望 的 CI 上 下 限 推出 可 接受 的 最 宽 CI 宽度 , 进而 综合 检验 力 分 析 结 果 确 定 被 试 量 


和 试 次 数 的 理想 结合 点 。 


此 外 ， 在 以 心理 学 实验 研究 为 背景 的 样本 量规 划 中 ， 研 究 者 普遍 关注 基于 实验 效应 中 


固定 效应 的 样本 量规 划 (Lee, 2018)， 而 不 关注 基于 被 试 变量 对 实验 效应 的 调节 效应 的 样本 量 


规划 。 然 而 ， 随 着 心理 学 个 体 差 异 视角 研究 的 深入 ， 越 来 越 多 的 研究 开始 探索 不 同类 型 个 体 


间 的 实验 效应 是 否 存在 差异 。 例 如 ， 蒋 元 萍 等 (2022) 发 现 ， 积 极 情绪 和 消极 情绪 状态 下 被 试 


(被 试 调节 变量 ) 的 跨 期 决策 行为 (实验 效应 ) 存 在 显著 差异 。 这 类 研究 需要 样本 量规 划 满 足 被 


试 变量 调节 效应 估计 准确 性 的 要 求 。 因 此 ， 本 研究 以 典型 的 被 试 内 重复 实验 设计 为 背景 ， 基 


于 LMEMs， 分别 探讨 基于 被 试 内 变量 的 实验 效应 和 被 试 间 变量 的 调节 效应 的 样本 量规 划 问 


题 。 


本 文 首先 在 多 层 线性 模型 框架 下 重 构 模型 ， 以 更 好 适应 实验 设计 在 不 同 层级 加 入 自 变 


量 (控制 变量 ) 的 需要 。 然 后 ， 说 明生 成 CI 宽度 等 高 线 图 的 流程 及 其 函数 。 最 后 ， 分 别 基于 


被 试 内 变量 的 实验 效应 和 被 试 间 变量 的 调节 效应 进行 模拟 研究 ， 考 察 实验 效应 、 随 机 斜率 、 


被 试 变量 类 型 如 何 影响 评价 指标 结果 和 CI 宽度 等 高 线 图 ， 并 说 明 如 何 根 据 结果 推荐 合适 的 
样本 量 。 


2 心理 学 实验 研究 中 的 线性 混合 效应 模型 


LMEMs 的 一 般 形式 可 见 Williams 等 (2021) 的 文章 。 在 多 层 线性 模型 的 框架 下 ， 可 对 其 


重新 定义 。 以 刺激 嵌 套 于 实验 条 件 的 被 试 内 实验 设计 为 例 ， 假 设 刺激 没有 重复 (Barr et al., 


2013; Lee, 2018) 。 水 平 1 表示 试 次 (trial) 水 平 ， 水 平 2 表示 被 试 水 平 ， 试 次 峰 套 于 被 试 。 随 
机 斜率 模型 (模型 1) 可 表示 为 


水 平 2 =P FU or, a 
B li =y 10 + U li D (3) 


Rr. Y ;; ”表示 连续 的 结果 变量 0=1,.…,] 表示 试 次 ， 二 1,…J 了 表示 被 试 ),， X ji 


表示 实验 效应 的 虚无 编码 ，B o AB 4, 分 别 表示 被 试 的 随机 截 距 和 随机 斜率 ， 即 不 


4 


同 被 试 基线 水 平和 实验 效应 的 不 同 ， 工 “oj 表示 刺激 的 随机 截 距 (不 同 刺激 的 效应 不 同 )。 


Y  oofly 1o 分 别 表示 被 试 随 机 截 距 的 均值 和 随机 斜率 的 均值 , 其 中 y ”10 是 实验 效应 的 


固定 部 分 ， 是 重点 考察 的 效应 量 指标 。U 0; >U y ，T ji ， 分别 表示 水 平 2 截 
距 、 和 斜率 的 随机 部 分 和 水 平 1 的 残 差 。 模 型 假设 r ;) ~N (0,0 7), 
U oi T ? p T T 
( )-N (0,2), Z =| 00 007 u|, icon 
U i P T oot 11 T u 


机 截 距 I 0j ~N (0, CU i Js 


多 层 线 性 模型 的 优势 在 于 能 够 方便 地 在 不 同 水 平 加 入 解释 变量 。 例 如 ， 可 在 水 平 2 加 


入 自 变量 W ， ， 用 于 解释 随机 截 距 和 随机 斜率 存在 个 体 间 差 异 的 原因 (模型 2)。 
水 平 1: 


Y ji ML u X ji +I oj +r ji ù (4) 
水 平 2: y oo t Y oW i +u Oi ^" (5) 
B u =Y wty nW ; +U , , (6) 


Roh, Wo, ”表示 被 试 变 量 ，y 01 表示 被 试 变 量 对 随机 截 距 的 影响 ，y ”11 表 示 被 试 变 


量 对 随机 斜率 的 影响 , 也 可 看 作 水 平 1 和 水 平 2 变量 的 跨 水 平 交互 作用 , 是 重点 考察 的 效应 
量 指标 。 
= 3 fe DX TB) a EA a R AE p zb 9E 


基于 模拟 的 方法 生成 置信 区 间 宽 度 等 高 线 图 实现 样本 量规 划 包含 以 下 步 又。 
第 一 ， 设 置 参 数 。 在 实验 研究 背景 下 ， 选 用 特定 的 LMEM， 设 置 水 平 1、 水 平 2 PEARS 
!， 固 定 效应 取 值 ， 以 及 随机 效应 分 布 。 

第 二 ， 生 成 数据 。 基 于 步骤 一 中 定义 的 模型 重复 生成 数据 N 次 (如 ，N=1000)。 

第 三 ， 参 数 估计 。 对 于 每 次 重复 ， 使 用 产生 模型 与 数据 拟 合 。 应 用 R 软件 包 Ime4(Bates 
et al., 2011) 基 于 限制 性 极 大 似 然 (restricted maximum likelihood, REMLI) 方 法 估计 参数 。 采 用 默 
认 的 Wald 方法 计算 效应 量 参数 的 CI。 

第 四 ， 变 化 水 平 1、 水 平 2 样本 量 ， 重 复 步 又 一 到 三 。 
第 五 ， 计 算 评 价 指标 。 详 见 4.2。 


p 


1 当 水 平 1、 水 平 2 自 变 量 为 分 类 变量 时 ， 类 别 的 样本 


ta 
: 


第 六 ， 根 据 标准 对 评价 指标 作出 判断 ， 画 出 CI 宽度 等 高 线 图 ， 推 荐 合适 的 样本 量 。 本 
研究 建议 采用 效应 量 标准 的 最 高 水 平 减 去 最 低 水 平 作 为 可 接受 的 最 大 CI 宽度 


本 研究 基于 R 语言 (R Development Core Team, 2019) 编 写 了 适用 于 LMEMs 样本 量规 划 


的 函数 samplesize LMEM.R( 见 在 线 补充 材料 2)。 调 用 函数 ， 并 输入 相应 的 参数 运行 程序 ， 
可 以 得 到 评价 指标 结果 和 CI 宽度 等 高 线 图 。 应 用 流程 如 图 1 所 示 。 调 用 语句 及 其 说 明 请 参 


考 在 线 补充 材料 3。 本 函数 具有 一 定 的 灵活 性 ， 例 如 设置 w = 0 时 ， 数 据 生成 模型 简 


化 为 不 含 刺激 随机 效应 的 模型 ， 设 置 w o = 0, T u -= 0 时 ， 简 化 为 随机 截 距 模型 


2 2 
KEW 00 = 0, T 11 三 OICC =0 时 ， 简 化 为 一 般 线 性 模型 。 


输入 水 平 1、 水 平 2 样本 量 ， 各 水 平 


不 同 条 件 样本 量 比例 


确定 所 使 用 的 线性 混合 效应 模型 


输入 参数 


输入 固定 效应 、 随 机 效应 取 值 


勾 重复 次 数 N， 输 入 n=l 


n=n+1 


1 CI 宽度 等 高 线 图 生成 流程 图 


下 面 通过 两 个 模拟 研究 , 考察 不 同 因素 对 检验 力 和 效应 量 估计 准确 性 的 影响 ,说 明 CI( 本 
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a 
m 


inaXiv 


C 


研究 为 95%CD 宽 度 等 高 线 图 在 样本 量规 划 中 的 应 用 。 


4 模拟 研究 一 : 基于 被 试 内 实验 效应 的 样本 量规 划 


研究 一 在 模型 1 的 框架 下 ， 针 对 实验 效应 y ”10， 即 水 平 1 自 变量 的 固定 效应 ， 考 察 
VY ”10 对 模型 估计 结果 的 影响 ， 并 通过 CI 宽度 等 高 线 图 提供 样本 量 建 议 。 


4.1 参数 设置 


4.1.1 固定 参数 设置 


| 


基 


于 模型 1 模拟 生成 数据 。 参 照 Arend 和 Schiifer(2019) 的 参数 设置 ， 随 机 截 距 的 固定 


效应 y oo 固定 为 0， 残 差 7 ~N (0,1)。 预 研究 发 现 ， 组 内 相关 2?(intraclass 


ij 


correlation coefficient, ICC) 大 小 对 y ” 10 的 检验 力 和 参数 估计 准确 性 都 没有 显著 影响 ， 因 此 
固定 为 中 等 水 平 0.3 (Arend & Schafer, 2019)， 已 知 残 差 方 差 o。 2 — 1, 根据 下 式 ， 计 算得 


到 T 的 值 。 


2 2 
T 00 =ICC /(o ?-ICC ). (7) 


标准 化 的 随机 斜率 方差 ?固定 为 中 等 水 平 (7 gaseg ”“=0.09)。 为 简化 研究 ， 随 机 截 距 


和 随机 斜率 的 协 方差 固定 为 0(p = 0, Arend & Schäfer, 2019). 刺激 的 随机 效应 4 固定 为 较 


小 水 平 w 00 =0.2(Cho et al., 2017) 。 最 后 ， 根 据 残 差 方差 ， 得 到 用 于 产生 数据 的 总 体 模 
型 的 随机 斜率 方差 。 


— 2 
T 1-77 dist ad oy (8) 


X ji 设 定 为 二 分 类 变量 (如 ， 控 制 组 和 实验 组 )。 采 用 偏差 编码 (deviation coding, Barr et 


al., 2013; Lee, 2018) 的 形式 ， 编 码 为 -0.5 和 0.5。 每 种 条 件 下 重复 模拟 1000 次 (例如 , Zhang, 


2014)。 


”在 多 水 平 模型 中 ， 组 内 相关 ICC 用 于 表示 零 模型 〈 不 含 任何 预测 变量 的 模型 ) 中 水 平 2 变异 占 总 变异 的 
比例 ， 值 越 大 组 间 变异 越 大 。 一 般 而 言 ， 被 试 入 套 于 组 的 设计 所 得 到 的 ICC 要 小 于 测量 嵌 套 于 被 试 的 ICC。 
， 预 研究 发 现 ， 标 准 化 的 随机 斜率 方差 7 eg UP 10 的 检验 力 和 参数 估计 偏差 影响 不 大 。 
《本 研究 暂 不 考察 刺激 随机 效应 大 小 对 样本 量规 划 结果 的 影响 ， 因 此 参考 Cho 等 (017) 的 实证 调查 ， 将 
刺激 的 随机 效应 固定 为 较 小 水 平 02。 
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412 变化 参数 设置 


参考 Arend 和 Schifer(2019) 的 研究 , 实验 效应 的 大 小 (y iosta 5) 设 为 3 个 水 平 : 


0.2( 小 )、 0.5( 中 )、0.8( 大 )。 在 每 种 条 件 下 分 别 进行 样本 量规 划 。 


IKE 1 样本 量 (J， 试 次 数 )， 包 含 10 个 水 平 : 10, 20, 30, 50, 70, 100, 150, 200, 


250, 300. KF 2 样本 量 (， 被 试 量 )， 包 含 9 个 水 平 : 10, 30, 50, 70, 100, 200, 400, 


600，800。 共 形成 10 x 9 = 90 种 样本 量 组 合 5。 

此 外 ， 有 研究 证 明 ， 当 不 同 条件 下 试 次 数 不 等 时 ( 非 平衡 设计 )， 同 等 样本 量 条 件 下 的 检 
验 力 较 小 (Kumle et al, 2021)。 因 此 ， 为 考察 非 平衡 设计 对 样本 量规 划 的 影响 ， 在 效应 量 中 
等 的 水 平 下 ， 增 加 自 变 量 两 个 类 别 样本 量 不 等 的 情况 。 参 考 Kume 等 (2021) 的 研究 ， 设 两 个 
水 平 的 样本 量 比例 为 1:4。 


综 上 ， 完 成 参数 设置 ， 调 用 samplesize LMEM.R 函数 运行 得 到 结果 。 


4.2 评价 指标 


评价 指标 包括 5 个 方面 。(D 收 和 敛 率 。 即 参数 估计 收敛 次 数 占 总 重复 次 数 的 比例 。 是 否 
收敛 采用 Ime4 默认 的 Hessian 检验 评价 (Bates et al., 2011)。 后 面 的 所 有 评价 指标 均 基 于 收敛 


的 情况 计算 。(2) 检 验 力 。y ”10 的 CI 不 包括 0 的 次 数 占 所 有 收敛 次 数 的 比例 。 预 设 的 检验 
力 标准 为 大 于 等 于 0.8。(3) 效 应 量 ( 固 定 效应 ) 估 计 的 准确 性 。 包 括 估计 偏差 (bias)， 相 对 估计 


偏差 (relative parameter estimation bias, rbias), Rž} 77 TR (root mean squared error, RMSE), 


CI 宽度 (width)，CI 对 真 值 的 覆盖 率 (CP)。 以 7。 10: 


| " oon 
bias ECCE a xp c QTY 10. (9) 
n =1 


1 N — (n ) 
[-———————— AH | (y -y ) 
pono bie 


rbias = ， (10) 
Y 10 
5 在 多 水 平 模型 中 Y iosta = 
y 10*S D predictor /sD outcome 。 当 自 变 量 为 分 类 变量 时 ， 
Y agosto 为 部 分 标准 化 的 回归 系数 , 即 只 对 因 变 量 标准 化 SD outcome =o , 
Y dqosta ”=y 10/0 )。 该 系数 代表 了 自 变量 两 个 类 别 在 因 变 量 上 的 标准 化 均值 差异 CCohen's 


d). 
5 水 平 1 样本 量 中 ，. 太 10 的 水 平 代 表 了 Lee (2018) 的 研究 中 使 用 Laplace 接近 方法 没有 收敛 问题 的 条 件 ， 
J=300 的 水 平 代表 了 Schultzberg 和 Muthén (2018) 关于 动态 结构 方程 模型 样本 量规 划 研究 中 测试 时 间 点 设 
的 最 大 水 平 。 水 平 2 样本 量 中 ， 天 10 的 水 平 接近 Lee (2018) 总 结 的 类 似 实验 设计 所 使 用 的 被 试 量 最 小 
EL C160, 7-800 的 水 平 接近 Lee (2018) 模拟 研究 中 设置 的 1000 名 被 试 的 水 平 ， 目 的 是 为 了 探索 大 样本 条 
牛 对 效应 量 估计 准确 性 提高 的 作用 。 最 小 到 最 大 样本 量 水 平 之 间 的 变化 参考 了 同类 样本 量规 划 研 究 〈 例 如 ， 
Schultzberg & Muthén, 2018). 
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) 为 估 


wi dt ho ) 
coverage 


coverage 


coverage 


则 bias 应 在 0 附近 ， 


5 


应 量 标准 误 估 计 的 准 


zu 


ite, 


(SE-SD bias). Ly 


SE — SD bias = YN 


MET: 
Y 10 


ET 


其 中 ,， SE 


pec 


的 重复 中 y 


(n ) 一 、 
10 ”的 标 ? 


0(Schultzberg & Muthén, 2018)。,(5) 随 机 效应 估计 的 准确 性 ,随机 效应 方差 估计 值 (包括 o 


2 
T oo? t 


4.3 研究 结果 


4.3.1 收敛 情况 


附 表 1 和 2( 在 线 补充 材料 1) 分 别 呈 现 了 平衡 和 非 平 衡 样本 量 分 
F 下 基本 不 存在 收敛 问题 ， 


型 (模型 1) 的 收敛 率 。 各 条 作 


10 为 例 ， 


表 


its 


An WH 


> 


计 结 果 是 否 收敛 的 指标 变量 , H 


DU yo 的 CI 宽 度 

o yy (HG CI 是 否 履 盖 真 值 y。 10 的 指标 变量 ， 
0 )20 zx 7 kh F UN ou AR ff 

"n o) = 1 RPAH. IUE —uoflil EUR, 


T žu 


zl 


N 


— 


Ey 


E25. 。 如 果 ] 


量 均 小 于 200 时 ， 收 敛 率 均 超过 O9. 5 


=1 


(n 
10 


aH @™y ) 


~ 


Ho N 表示 模拟 重复 次 数 。 对 于 第 n 次 重复 , y 


^ (n ) 


a. 
FR 


H "(SE 


to “的 估计 标准 误 ，S D 


10 的 估计 标准 误 准确 ， 


11 Flew go ) 的 tbias。 其 计算 方法 与 公式 (10) 类 似 。 


(n. 2-0 表示 不 收敛 , H 


=} 


he )， 


(n ) 
10 


rbias 应 小 于 其 临界 值 0.1(Koch et al., 2014), RMSE 应 较 小 ，width 应 较 


, CP 应 在 0.925 到 0.975 之 间 (Bradley 1978)。(4) 效 应 量 标准 误 估 计 的 准确 性 。 为 评价 3 
的 估计 标准 误 相 对 于 其 估计 值 标 准 差 的 偏 


(n 


10)2， 


(11) 


(12) 


9r L3) 


Ay 10 估计 值 ， 


)-1 表示 收敛 。 


人 


一 ”表示 所 有 收敛 
Y 10 


则 SE-SD bias 应 接近 于 


2 
, 


9 


Ufa 


FP. 随机 斜率 模 


收敛 率 均 在 0.7 以 上 ， 两 个 水 平 样本 
， 效 应 量 大 小 和 是 否 为 平衡 设计 对 收敛 率 几乎 没 


有 影响 。 


432 检验 力 结 


平衡 设计 各 条 件 下 检验 力 结果 如 表 1 所 示 。 从 表 中 可 以 看 出 , 效应 量 越 大 , 检验 力 越 大 ， 
满足 0.8 标准 需要 的 样本 量 越 小 。 例如， 被 试 量 为 中 等 水 平 (200 人 )， 当 效应 量 为 0.2 时 ， 需 
要 200 个 试 次 才能 保证 检验 力 达 到 0.8 及 以 上 ; 而 当 效 应 量 为 0.8 时 , 只 需要 20 个 试 次 就 能 
保证 检验 力 达 到 0.8 及 以 上 。 非 平衡 设计 的 检验 力 结果 见 附 表 3( 在 线 补充 材料 1)。 对 比 发 现 ， 
非 平 衡 设计 的 检验 力 普 遍 小 于 平衡 设计 的 结果 。 例 如 ， 当 被 试 量 为 10 人 ， 检 验 力 达 到 0.8 


时 ， 平 衡 设计 下 需要 50 个 试 次 ， 而 非 平衡 设计 下 则 需要 100 个 试 次 。 
表 1 研究 一 平衡 设计 各 条 件 下 线性 混合 效应 模型 水 平 1 自 变量 效应 的 检验 力 
J 
ES I 
10 20 30 50 70 100 150 200 250 300 
10 0.107 0.112 0.131 0.168 0.181 0.224 0.279 0.312 0.369 0.379 
30 0.118 0.152 0.202 0.266 0.335 0.446 0.585 0.677 0.738 0.802 
50 0.170 0.175 0.224 0.278 0.409 0.490 0.677 0.756 0.832 0.888 
70 0.125 0.171 0.218 0.311 0.412 0.543 0.683 0.791 0.866 0.930 
0.2 100 0.133 0.169 0.233 0.335 0.420 0.535 0.701 0.816 0.893 0.935 
200 0.147 0.188 0.234 0.344 0.455 0.586 0.745 0.845 0.913 0.951 
400 0.115 0.194 0.232 0.345 0.433 0.574 0.766 0.852 0.918 0.958 
600 0.123 0.193 0.236 0.376 0.447 0.606 0.740 0.878 0.931 0.965 
800 0.147 0.202 0.245 0.377 0.480 0.549 0.764 0.909 0.948 0.969 
10 0.298 0.481 0.626 0.804 0.891 0.975 0.994 0.999 1.000 1.000 
30 0.383 0.631 0.782 0.927 0.986 0.997 1.000 1.000 1.000 1.000 
50 0.438 0.659 0.810 0.959 0.992 1.000 1.000 1.000 1.000 1.000 
70 0.430 0.651 0.822 0.963 0.992 0.999 1.000 1.000 1.000 1.000 
0.5 100 0.453 0.659 0.845 0.967 0.996 0.999 1.000 1.000 1.000 1.000 
200 0.451 0.679 0.846 0.968 0.999 0.998 1.000 1.000 1.000 1.000 
400 0.453 0.714 0.856 0.976 0.997 1.000 1.000 1.000 1.000 1.000 
600 0.416 0.695 0.849 0.972 0.994 1.000 1.000 1.000 1.000 1.000 
800 0.464 0.715 0.850 0.972 0.999 1.000 1.000 1.000 1.000 1.000 
10 0.626 0.876 0.959 0.997 1.000 1.000 1.000 1.000 1.000 1.000 
30 0.715 0.952 0.995 1.000 1.000 1.000 1.000 1.000 1.000 1.000 
50 0.747 0.956 0.993 1.000 1.000 1.000 1.000 1.000 1.000 1.000 
70 0.773 0.958 0.999 1.000 1.000 1.000 1.000 1.000 1.000 1.000 
0.8 100 0.766 0.968 0.997 1.000 1.000 1.000 1.000 1.000 1.000 1.000 


200 0.766 0.977 0.995 1.000 1.000 1.000 1.000 1.000 1.000 1.000 
400 0.799 0.970 0.999 1.000 1.000 1.000 1.000 1.000 1.000 1.000 
600 0.783 0.976 0.997 1.000 1.000 1.000 1.000 1.000 1.000 1.000 
800 0.805 0.973 0.997 1.000 1.000 1.000 1.000 1.000 1.000 1.000 
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VE: /表示 水 平 
的 为 检验 力 大 于 等 


à 


1 样本 量 ， 


7 表示 水 平 2 样本 量 ，ES 表示 水 平 1 自 变量 的 效应 量 。 表 中 加 粗 
于 0.8 的 结果 。 


4.3.3 效应 量 及 其 标准 误 估 计 准 确 性 结 


效应 量 大 小 对 效应 量 及 其 标准 误 估计 准确 性 结果 没有 显著 影响 。 表 2 呈现 了 平衡 设计 


效应 量 为 0.5( 中 等 ) 情 况 下 效应 量 及 其 标准 误 估计 准确 性 结果 (只 呈现 rbias，width 和 SE-SD 
bias 的 结果 ， 其 他 评价 指标 结果 见 附 表 4， 效 应 量 为 0.2 和 0.8 的 结果 见 附 表 5、6， 在 线 补 


充 材 料 D)。 表 2 结果 显示 所 有 条 件 下 rbias 都 小 于 0.1。 此外, WE 4 显示 在 所 有 条 伯 
都 在 0 附近 波动 ; RMSE 较 小 ， 基 本 在 0.3 以 下 ， 且 随 着 水 平 
是 水 平 1 样本 量 增加 ，RMSE 减 小 ; 
吉 果 说 明 各 条 件 下 ， 
小 和 大 的 标准 值 
当 水 平 1 样本 量 为 30 及 以 下 时 ， 
ERK, 


的 覆盖 率 都 大 于 
根据 效应 量 
从 表 3 看 出 ， 


下 效应 量 估计 的 标准 


最 后 ， 各 种 


此 外 ， 附 表 7( 在 线 补充 材料 1) 呈 现 了 非 平衡 设计 下 的 固定 效应 及 ]j 


0.925。 


ER, bias 


B Ez 


1 和 水 平 2 样本 量 增加 ， 尤 其 
除了 水 平 1 样本 量 为 10 的 条 件 外 ， 其 他 条 件 下 
水 平 1 自 变量 的 固定 效应 估计 准确 。 

0.2 和 0.8， 定 义 可 接受 的 最 宽 95%CI 宽度 为 0.8-0.2=0.6。 


宽度 均 超过 了 0.6。 说 明 在 这 些 情 况 


95%CI Ti 


导致 其 95%CI 较 宽 。 


条 件 下 SE-SD bias 都 在 0 附近 波动 ， 说 明 效 应 量 标准 误 估 计较 准确 。 


TT 
NY 
n 
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果 。 与 平衡 设计 下 的 结果 相 比 ， 非 平衡 设计 下 的 RMSE 更 大 ，95%CI 更 宽 。 


表 2 研究 一 平衡 设计 效应 量 为 0.5 时 水 平 1 自 变 量 固定 效应 及 其 标准 误 估计 准确 性 
criteria I a 
10 20 30 50 70 100 150 200 250 300 
10 0.008 0.009 0.001 0.007 0.001 0.012 0.001 0.001 0.001 0.000 
30 0.007 0.002 0.006 0.017 0.003 0.003 0.007 0.001 0.001 0.003 
50 0.024 0.009 0.004 0.011 0.003 0.002 0.011 0.005 0.013 0.002 
70 0.003 0.004 0.019 0.001 0.017 0.001 0.001 0.001 0.004 0.005 
rbias 100 0.019 0.005 0.004 0.000 0.004 0.002 0.004 0.003 0.002 0.004 
200 0.013 0.007 0.015 0.007 0.014 0.010 0.001 0.001 0.002 0.003 
400 0.026 0.025 0.008 0.003 0.008 0.004 0.001 0.003 0.000 0.002 
600 0.016 0.011 0.007 0.003 0.005 0.005 0.004 0.002 0.003 0.006 
800 0.005 0.010 0.010 0.004 0.001 0.013 0.003 0.005 0.000 0.001 
10 All 1.036 0.861 0.709 0.633 0.565 0.506 0.476 0.458 0.444 
30 197 0.860 0.713 0.573 0.498 0.434 0.376 0.343 0.321 0.306 
50 1.151 0.827 0.685 0.542 0.468 0.403 0.343 0.309 0.286 0.270 
70 125 0.817 0.669 0.530 0.453 0.389 0.328 0.293 0.269 0.252 
width 100 1.122 0.798 0.665 0.519 0.443 0.377 0.316 0.280 0.256 0.238 
200 091 0.786 0.649 0.505 0.431 0.362 0.301 0.265 0.240 0.221 
400 .096 0.782 0.644 0.501 0.424 0.355 0.294 0.256 0.230 0.212 
600 .086 0.778 0.643 0.497 0.422 0.353 0.290 0.254 0.227 0.209 
800 1.076 0.778 0.638 0.497 0.423 0.354 0.290 0.252 0.226 0.207 
10 0.006 0.024 0.023 0.027 0.025 0.032 0.035 0.046 0.048 0.047 
30 -0.006 0.005 0.007 0.008 0.013 0.015 0.017 0.020 0.019 0.022 
50 -0.004 0.004 0.002 0.007 0.009 0.012 0.011 0.010 0.014 0.014 
SE-SD bias 70 0.004 -0.006 0.006 0.003 0.006 0.006 0.010 0.009 0.012 0.011 
100 -0.006 -0.007 0.002 0.004 0.003 0.004 0.008 0.005 0.007 0.008 
200 -0.002 0.006 0.000 0.000 0.004 0.005 0.002 0.002 0.003 0.004 
400 0.000 -0.011 0.007 0.002 0.001 0.001 0.002 0.004 0.004 0.002 


H 


600 0.000 -0.002 0.000 -0.007 -0.004 0.001 -0.002 0.001 0.002 0.003 
800 -0.008 0.003 0.000 0.000 0.000 0.004 0.002 0.002 0.000 0.001 


TE: /表示 水 平 1 样本 量 ，7 表 示 水 平 2 样本 量 ，criteria 表示 各 评价 指标 。rbias 中 加 粗 的 为 
其 值 小 于 0.1 的 结果 。 


地 


4.3.4 随机 效应 估计 准确 性 结果 


效应 量 大 小 基本 不 会 影响 随机 效应 估计 准确 性 ( 附 表 8 ~ 11, 在 线 补充 材料 1)。 从 附 表 9 


2 


看 出 , 平衡 设计 水 平 1 自 变 量 效应 量 为 0.5 情况 下 , o “估计 值 的 tbias 均 小 于 0.1,T o0 


的 估计 准确 性 略 优 于 mw 00 ，T 11 的 估计 准确 性 相对 最 低 。 附 表 11 显示 ， 与 平衡 设计 


下 的 结果 相 比 ， 非 平衡 设计 下 T "ET. 11 的 估计 偏差 更 大 。 


4.3.5 样本 量规 划 建 议 


本 研究 提出 了 应 用 CI 宽度 等 高 线 图 给 出 样本 量规 划 建 议 。 效 应 量 准确 性 主要 通过 CI 
宽度 来 反映 。 此 外 ， 考 虑 到 随机 效应 方差 也 可 以 作为 效应 量 指标 (Hox et aL, 2017)， 因 此 也 
可 以 同时 结合 检验 力 、 随 机 效应 方差 估计 准确 性 和 CI 宽度 来 规划 样本 量 。 以 水 平 1 自 变量 
效应 量 为 0.5 的 情况 为 例 ， 图 2(a) 为 检验 力 +CI 宽度 等 高 线 图 ， 阴 影 区 域 表示 符合 检验 力 大 
于 等 于 0.8 标准 的 条 件 ; 图 2(b) 为 检验 力 + 随 机 效应 估计 准确 性 +CI 宽度 等 高 线 图 , 阴影 区 域 
表示 符合 检验 力 大 于 等 于 0.8 且 所 有 随机 效应 估计 值 rbias 小 于 0.1 的 条 件 。 不 同 颜色 对 应 于 
不 同 的 CI 宽度 。 

从 图 2 可 看 出 ， 首 先 ， 对 于 检验 力 ， 或 检验 力 + 随机 效应 估计 准确 性 ， 两 个 水 平 样本 量 
有 具有 相互 补偿 的 作用 。 但 是 ， 当 水 平 1 〈 试 次 ) 的 样本 量 过 小 时 (例如 ， 小 于 30)， 无 论 怎样 
增加 水 平 2〈 被 试 ) 样本 量 ， 也 无 法 使 得 检验 力 或 检验 力 + 随 机 效应 估计 准确 性 达到 要 求 。 
其 次 ，95%CI 宽度 受 水 平 1 样本 量 影响 更 大 。 当 水 平 1 样本 量 较 小 时 (如 10)， 即 使 增 大 水 平 
2 样本 量 ， 也 很 难 减 小 95%CI 宽度 。 最 后 ， 与 图 a 相 比 ， 图 b 的 阴影 区 域 向 右上 移动 ， 说 明 
增加 考虑 随机 效应 估计 准确 性 的 要 求 更 加 严格 。 水平 1 自 变 量 效应 量 为 小 .中 和 大 情况 下 的 
等 高 线 图 见 附 图 1 ~ 3( 在 线 补充 材料 1)。 随 着 效应 量 增 大 ， 阴 影 区 域 向 下 方 移动 ， 满 足 要 求 
的 水 平 1 样本 量 减 小 。 

应 用 CI 宽度 等 高 线 图 时 ， 首 先 根据 阴影 区 域 找 出 符合 要 求 (检验 力 大 于 等 于 0.8， 或 检 
验 力 大 于 等 于 0.8 且 所 有 随机 效应 估计 值 rbias 小 于 0.1) 的 范围 。 然 后 , 在 阴影 区 域 中 , 通过 
与 可 接受 的 最 宽 CI 宽度 比较 ， 得 到 合适 的 样本 量 组 合 。 例 如 ， 根 据 图 2， 满 足 检验 力 大 于 


— 
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等 于 0.8 的 标准 ，95% CI 宽度 小 于 等 于 0.6， 则 推荐 水 平 1 样本 量 =50， 水 平 2 样本 量 =30。 


满足 检验 力 大 于 等 


于 0.8 且 所 有 随机 效应 估计 值 rbias 小 于 0.1, 95% CI 宽度 小 于 等 于 0.6, 


则 推荐 水 平 1 样本 量 =50， 水 平 2 样本 量 =400。 


从 附 图 3 看 出 


， 与 平衡 设计 相 比 ， 非 平衡 设计 下 的 阴影 区 域 向 上 方 移动 ,满足 要 求 的 水 


平 1 样本 量 增 大 ， 至 少 为 50 才能 保证 检验 力 符合 要 求 。 


969% 8 TB DC Ie] BE 


959675 fa [X [B] S8 J£ 
03 


10 50 100 200 600 800 


400 
水 平 2 样本 量 


(b) 检 验 力 + 随 机 效应 估计 准确 性 +CI 宽度 等 高 线 图 


图 2 研究 一 平衡 设计 水 平 1 自 变 量 效应 量 中 情况 下 的 CI 宽度 等 高 线 图 
TE: 图 (a) 中 阴影 区 域 表示 符合 检验 力 大 于 等 于 0.8 标准 的 条 件 , 图 (b) 中 阴影 区 域 表 示 符 合 检 


验 力 大 于 等 于 0.8 ] 


有 所 有 随机 效应 估计 值 rbias 小 于 0.1 的 条 件 。 不 同 95%CI 宽度 用 不 同 颜 


色 的 等 高 线 表 示 。 如 图 例 所 示 从 0.3 到 1.0 间隔 0.1, 在 图 中 共有 8 条 依次 排列 的 等 高 线 。 例 
如 ，0.3 对 应 的 等 高 线 表 示 线 条 以 上 的 区 域 95%CI 宽度 在 0.3 及 其 以 下 。 后 同 。 


5 模拟 研究 二 : 基于 被 试 变量 调节 效应 的 样本 量规 划 研 究 


研究 二 在 模型 2 的 框架 下 ， 针 对 被 试 变 量 的 调节 效应 (y 11， 路 水 平 交 互 作 用 )， 考 察 


T u “大 小 和 被 试 变量 类 型 对 模型 估计 结果 的 影响 , 并 通过 CI 宽度 等 高 线 图 提供 样本 量 建 


议 。 
5.1 参数 设置 


51.1 固定 参数 设置 


考虑 到 实际 中 被 试 变 量 W ， 可 能 为 分 类 变量 (如 , 性 别 ) 或 连续 变量 (如 , 情绪 唤醒 度 )， 


为 二 分 变量 ， 采 用 偏差 编码 (-0.5 和 0.5); 情境 2 


d 
E 
= 


研究 二 分 为 两 种 情境 : 情 


P, Wo, 为 连续 变量 ， 服 从 标准 正 态 分 布 。 


与 研究 一 类 似 ， 随 机 截 距 的 固定 效应 y ”oo 固定 为 0。 研 究 二 主要 关注 y 11， 因 此 ， 


EX ji AW, 的 主 效应 固定 为 中 等 水 平 ， 即 : y josta =0.5， 
Y ostra ”=0.5( 情 境 D, y 01。,s =0.3( 情 境 2)。 为 简化 研究 参考 检验 


力 分 析 研 究 的 普遍 设计 (例如 , Arend & Schäfer, 2019), HY ista 也 固定 为 中 等 水 平 


即 : y augue = 0.5( 情 境 1), y asta = 0.3( 情 境 2)(Cohen, 2013). 


与 研究 一 类 似 , 残 差 方差 设 定 为 0 ?2 = 1. 情 境 1 中 ,在 t cpg 7 = 0.010), 


0.09( 中 ) 和 0.25( 大 ) 三 种 水 平 下 (Arend & Schafer, 2019), 根据 公式 (14)， 可 得 到 三 种 水 平 下 的 


2 
T 11 =0.01,0.09 和 0.25。 


利用 T ”11 对 标准 化 的 跨 水 平 交 互 效应 进行 调整 , 得 到 用 于 产生 数据 的 总 体 模型 的 固定 


效应 参数 (Arend & Schäfer, 2019)". 


Y u=V asta xT 11. (15) 


7 在 多 水 平 模型 中 y sig = 


Y ux*SD predictor /sD outcome > HW i 为 分 类 变量 
B. Y srg ”为 部 分 标准 化 的 回归 系数 ， 即 只 对 因 变 量 标准 化 (S D outcome = 
T 41, Y atstd =p u/t 11; 4W i 为 连续 变量 时 ， 于 自 变 量 已 经 标准 化 

(SD pod cir =1), WY sta =y u/t 1 为 完全 标准 化 的 下 
归 系数 。 
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因此 ， 在 情境 1 中 ， 随 机 和 斜率 方差 的 三 种 水 平 F『Fy 1120.05, 0.15 $800.25; 在 情境 2 中 ， 


Deh , "TET 
EET distad 为 中 等 水 平 (0.09)， 可 得 到 y 11 20.00. p — i: RABAT SK 


验 效应 的 调节 效应 。 在 情境 1 中, y RW ， = 一 0.5 的 被 试 和 W , = 0.5 的 被 


试 在 两 个 实验 水 平 上 结果 差异 的 差异 。 在 情境 2 中 ,，y 11 表示 W ;” 越 高 / 越 低 的 被 试 ， 


在 两 个 实验 水 平 上 结果 的 差异 越 大 / 越 小 。ICC 固定 为 中 等 水 平 。w oo 固定 为 0.2。 每 种 


条 件 下 数据 重复 模拟 N=1000 次 。 


5.2.2 变化 参数 设置 


J 样本 量规 


> 


" 2 a Bus 
情境 1 中 , ÆT std 分 别 为 0.01,0.09 和 0.25( 公 式 (14)) 时 分 别 进 


划 。 同 时 ， 为 考察 非 平 衡 设计 对 样本 量规 划 的 影响 ， 增 加 被 试 变量 两 个 类 别 样本 量 不 等 的 情 
况 (1:4)。 样 本 量 设 置 与 研究 一 相同 。 调 用 samplesize LMEM.R 函数 运行 得 到 结果 。 


5.2 评价 指标 


与 研究 一 相同 。 
5.3 研究 结果 


5.3.1 收敛 情况 


研究 二 中 LMEMs 的 收敛 率 见 附 表 12、13( 在 线 补充 材料 1)。 可 以 看 出 ， 当 T qi 小， 


W , 为 分 类 变量 时 ， 在 部 分 条 件 下 ， 收 敛 率 低 于 0.7。 甚 至 在 有 些 条 件 下 (三 800，. 三 250 


或 300)， 仅 有 不 到 一 半 的 重复 收敛 。 说 明 当 T 4, ”” 较 小 时 ， 采 用 随机 斜率 模型 可 能 
会 带 来 不 收敛 的 问题 。 其 余 各 条 件 下 基本 不 存在 收敛 问题 , 收敛 率 普 遍 在 0.7 MEW , 
为 分 类 变量 或 连续 变量 、 是 否 为 平衡 设计 对 收敛 率 几 乎 没有 影响 。 


5.3.2 检验 力 结 


各 条 件 下 y 311 检验 力 结 果 如 附 表 14、15( 在 线 补 充 材 料 1) 所 示 。 可 以 看 出 ， 


2 


T 11 BK, WURJDEOK. W , 为 连续 变量 得 到 的 检验 力 普遍 大 于 W ;为 分 
类 变量 的 情况 ， 这 可 能 与 连续 变量 提供 的 信息 量 更 多 有 关 。 随 着 两 个 水 平 样本 量 增加 ， 万 
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其 是 水 平 2 样本 量 增 加 ,检验 力 增 加 。 与 研究 一 不 同 , 研究 二 中 的 检验 力 受 水 平 2 样本 量 影 
响 更 大 ,这 是 因为 研究 二 中 的 检验 力 是 针对 水 平 2 自 变量 计算 的 ， 受 被 试 量 影响 更 大 ， 而 下 
究 一 中 的 检验 力 针对 水 平 1 自 变 量 计算 , 受 试 次 数 影响 更 大 。 此 外 ， 非 平衡 设计 的 检验 力 普 
遍 小 于 平衡 设计 的 结果 。 


NS 


S 


5.3.3 效应 量 及 其 标准 误 估计 准确 性 结 


调节 效应 量 及 其 标准 误 估计 准确 性 结果 见 附 表 16 ~ 20( 在 线 补充 材料 1)。 可 以 看 出 ， 


t 11 ° 不同 的 条 件 下 ，bias，rbias，95%CP 和 SE-SD bias 的 结果 非常 一 致 ， 都 较 


^. 随 着 T 11 ^ 增加 ，RMSE 增 大 ，95%CI 变 宽 。 
与 研究 一 不 同 ， 研 究 一 中 水 平 1 自 变量 (实验 效应 ) 估 计 准 确 性 更 受 水 平 1 样本 量 影响 ， 


而 研究 二 中 跨 水 平 交互 效应 估计 准确 性 更 受 水 平 2 样本 量 影响 。 在 W 为 分 类 变量 日 


2 
T nu WHET n =T iard = 0.09) 的 情况 下 ， 根 据 公式 (15)， 计 算 效应 


量 小 和 大 条 件 的 标准 值 分 别 为 0.06(0.2 x 0.3) 和 0.24(0.8 x 0.3)。 则 定义 可 接受 的 最 宽 


95%CI 宽度 为 0.24-0.06=0.18。 从 附 表 17 看 出 ， 部 分 条 件 下 95%CI 过 宽 。 只 有 当 水 平 2 样 
本 量 为 400， 且 水 平 1 样本 量 在 50 及 以 上 ， 或 者 水 平 2 样本 量 在 600 及 以 上 ， 且 水 平 1 样 
本 量 在 20 及 以 上 时 ， 能 够 满足 95%CI 宽度 小 于 0.18. 


根据 公式 (15), 计算 在 T 11 小 情况 下 ， 效应 量 小 和 大 条 件 的 标准 值 分 别 为 0.02(0.2 x 


0.1) 和 0.08(0.8 x 0.1).7 11 大 情况 下 ， 效应 量 小 和 大 条 件 的 标准 值 分 别 为 0.1(0.2 x 0.5) 


和 0.4(0.8 x 0.5)。 则 定义 两 种 情况 下 可 接受 的 最 宽 95%CI 宽度 分 别 为 0.08-0.02=0.6 和 


0.4-0.1=0.3。 可 以 看 出 ，T ”11 大 的 条 件 下 CI 宽度 符合 要 求 的 条 件 多 于 Tr 1 小 的 条 件 。 


W , 为 分 类 变量 和 连续 变量 得 到 的 bias，rbias，95%CP 和 SE-SD bias 的 结果 非常 
a, MR). W , 为 连续 变量 时 得 到 的 RMSE 较 小 ( 见 附 表 18)，95%CI RE. HH 


公式 (15)， 效 应 量 为 小 和 大 时 y 11 分 别 为 0.03(0.1 x 0.3) 和 0.15(0.5 x 0.1)。 定 义 可 接受 


的 最 宽 95%CI 宽度 为 0.15-0.03=0.12。 


此 外 ， 与 平衡 设计 下 的 结果 相 比 ， 非 平衡 设计 下 的 RMSE 更 大 ，95%CI 更 宽 。 


5.3.4 随机 效应 估计 准确 性 结 


附 表 21 ~ 25( 在 线 补充 材料 D 呈 现 了 随机 效应 估计 rbias 结果 。 从 表 中 看 出 ， 首 先 , 与 研究 


一 类 似 ，T 11 O KDW, 类 型 和 是 否 为 平衡 设计 基本 不 会 影响 m 2 m 


c oo — 估计 的 准确 性 。o ?估计 值 的 rbias 在 各 样本 量 条 件 下 均 达 到 小 于 0.1 的 标 


fe. Ku SW, 为 分 类 变量 时 ， 随 着 T 1. ”” 增加 ，Tt oo ” 的 估计 准确 


性 降低 ，Tt aa ”” 的 估计 准确 性 增加 。 具 体 来 看 ， 当 T 11 小时， 几乎 所 有 样本 量 条 


件 下 t ”11 估计 值 的 rbias 都 大 于 0.1。 进 一 步 计算 其 bias 发 现 ， 此 时 大 部 分 情况 下 会 存在 


BET u 的 问题 。 当 T qi 大 时 ， 所 有 样本 量 条 件 下 tT o0 估计 值 的 rbias 都 大 于 0.1. 


进一步 计算 其 bias 发 现 ， 此 时 大 部 分 情况 下 存在 高 估 T oo 的 问题 。 最 后 , SW, 为 连 


续 变量 时 ，T oo 的 估计 准确 性 略 高 于 分 类 变量 的 情况 。 


5.3.5 样本 量规 划 建 议 


3P he LY De EN 口 一 、 > EL ty ME y4 E jE y 
以 平衡 设计 T ”11 中 等 为 例 , 图 3 和 4 zea TW, 为 分 类 变量 和 连续 变量 情况 


下 的 CI 宽度 等 高 线 图 。 从 图 中 看 出 , 与 研究 一 不 同 ,，95%CI 宽度 受 水 平 2 样本 量 影响 更 大 。 
当 水 平 2 样本 量 较 小 时 ， 即 使 增 大 水 平 1 样本 量 ， 也 很 难 减 小 95%CI 宽度 。 这 可 能 与 研究 


二 关注 的 W ， 是 水 平 2 变量 有 关 。 此 外 ， 与 研究 一 相 比 ， 研 究 二 中 同时 满足 检验 力 和 随 


机 效应 估计 准确 性 标准 (图 b) 的 阴影 区 域 相 比 只 满足 检验 力 大 于 等 于 0.8 的 标准 (图 @) 向 右上 
移动 的 幅度 较 小 ， 说 明 对 于 研究 二 来 说 ， 检 验 力 和 检验 力 + 随 机 效应 估计 准确 性 标准 的 严格 
程度 基本 相当 。 并 且 , 与 研究 一 相 比 , 研究 二 中 满足 检验 力 标 准 和 同时 满足 检验 力 和 随机 效 
应 估计 准确 性 标准 的 阴影 区 域 向 右上 方 移动 , 说 明 对 于 研究 二 来 说 , 需要 更 大 的 样本 量 组 合 


才能 保证 达到 要 求 。W ;为 分 类 变量 和 连续 变量 的 情况 下 ， 检 验 力 ， 检 验 力 和 随机 效应 


估计 准确 性 符合 标准 的 区 域 几乎 相当 ，W 为 连续 变量 时 ， 检 验 力 符合 标准 的 区 域 向 略 


i 


p 


向 下 方 移动 , 说明 满足 要 求 所 需 的 水 平 1 样本 量 略 小 。 并 且 , W ; 为 连续 变量 时 ，95%CI 


更 窗 ， 同 等 宽度 的 等 高 线 向 左 移动 。 


根据 图 3, 在 满足 检验 力 大 于 等 于 0.8 的 标准 的 情况 下 , 如 果 95%CI 宽度 小 于 等 于 0.18, 
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则 推荐 水 平 1 样本 量 =50， 


估计 值 rtbias 小 于 0.1 的 情况 下 ， 如 果 95%CI 宽度 小 于 等 于 0.18, N 


水 平 2 样本 量 =400。 在 满足 检验 力 大 于 等 于 0.8 且 所 有 随机 效应 


1 推荐 水 平 1 样本 量 =50， 


水 平 2 样本 量 =400。 根 据 图 4， 在 满足 检验 力 大 于 等 于 0.8 的 标准 的 情况 下 ， 如 果 95%CI 
宽度 小 于 等 于 0.12， 则 推荐 水 平 1 样本 量 =50， 水 平 2 样本 量 =200。 在 满足 检验 力 大 于 等 于 
0.8 且 所 有 随机 效应 估计 值 rbias 小 于 0.1 的 情况 下 , 如果 95%CI 宽度 小 于 等 于 0.12, 则 推荐 
ACT 1 样本 量 =100， 水 平 2 样本 量 =200， 或 者 水 平 1 样本 量 =50， 水 平 2 样本 量 =400。 


平衡 设计 W 


i 


线 补充 材料 D)。 当 T 


为 分 类 变量 情况 下 ,T 


11 小 和 大 的 CI 宽度 等 高 线 图 见 附 图 4 和 5( 在 


ai 小 时 ， 阴 影 区 域 向 右上 移动 ， 满 足 要 求 的 样本 量 增 大 ; 当 T u 


KET, 满足 检验 力 要 求 的 阴影 区 域 略 向 下 移动 ,满足 要 求 的 水 平 1 样本 量 略 减 小 ， 此 时 没有 
同时 满足 检验 力 大 于 等 于 0.8 且 所 有 随机 效应 估计 值 rbias 小 于 0.1 的 条 件 。 


从 附 图 6( 在 线 补充 材料 1) 可 以 看 出 ， 与 平衡 设计 相 比 ， 非 平衡 设计 下 的 阴影 
方 移动 ， 说 明 满 足 要 求 的 水 平 2 样本 量 增 大 ， 至 少 为 400 才能 保 订 


300 
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0.12 
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(a) 检 验 力 +CI 宽度 等 高 线 图 
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(b) 检 验 力 + 随 机 效应 估计 准确 性 +CI 宽度 等 高 线 图 


图 3 研究 二 平衡 设计 TT 


lim] 


2 EM 
u 中 等 且 W ;为 分 类 变量 时 的 CI 宽度 等 高 线 图 
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(a) 检 验 力 +CI 宽度 等 高 线 图 
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(b) 检 验 力 + 随 机 效应 估计 准确 忆 


图 4 研究 一 平衡 设计 


6 实例 演示 


E+CI 宽度 等 高 线 图 


2 rA 
u 中 等 且 W Q0 为 连续 变量 时 的 CI 宽度 等 高 线 图 


本 部 分 将 通过 一 个 例子 ， 说 明 在 实际 中 如 何 运 用 本 研究 开发 的 函数 生成 CI 宽度 等 高 线 


图 ， 指 导 样 本 量规 划 。 


假设 研究 者 想 考 察 某 些 人 格 特征 (如 诚实 、 道德 、 幽 默 等 ) 是 否 会 影响 其 对 有 异性 的 吸引 力 。 
可 参考 一 项 关于 忠诚 对 异性 吸引 力 影 响 的 类 似 研究 (Xu et al., 2020)。 该 研究 采用 刺激 不 重复 


的 单 因 


中 是 否 忠 诚 的 句子 ， 让 被 试 对 每 个 异物 


素 被 试 内 实验 设计 , 给 被 试 依次 呈现 异性 的 头像 ， 同 时 附 上 描述 他 们 在 以 往 恋爱 关系 
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的 吸引 力 程 度 等 进行 评分 ， 其 中 忠诚 与 否 (忠诚 、 不 


忠诚 ) 为 被 试 内 因素 ， 每 个 条 件 下 有 20 个 不 重复 的 刺激 。 研 究 结果 显示 ， 表 现 出 忠诚 行为 的 
潜在 伴侣 的 吸引 力 评分 显著 高 于 不 忠诚 的 潜在 伴侣 。 研 究 者 可 以 参考 本 文 提出 的 方法 开展 样 


首先 ， 选 取 用 于 生成 模拟 数据 的 参数 。 采 用 借鉴 前 人 类 似 研 究 结果 设置 参数 。 对 于 Xu 
等 (2020) 的 原始 数据 ， 以 是 否 忠 诚 为 自 变量 ， 以 面孔 吸引 力 评分 为 因 变 量 ( 需 标 准 化 )， 将 数 
据 与 本 研究 模型 1 拟 合 ， 估 计 参 数 。 有 具体 语句 和 结果 请 参见 在 线 补充 材料 4。 根 据 结果 ， 计 


St 可 得 : y 10s1g -0578 , y oo =0.000 , ICC = 
2 2 2 2 2 
vom uà eU 950928 6 T aeri -0249 , o ? -077 , 


2 
w oo 70.017, 


然后 ,设置 参数 ,调用 函数 ,生成 评价 指标 结果 和 CI 等 高 线 图 。 设 定 重 复 次 数 为 N=1000, 


水 平 1 样本 量 包 含 6 个 水 平 : 40,80,120,200,300,400。 水 平 2 样本 量 包含 6 个 水 平 : 


10,30,50,70,100,200。 自 变量 两 个 条 件 试 次 数 相等 。 可 接受 的 最 宽 95%CI 宽度 为 0.8-0.2=0.6。 


预 设 图 中 95%CI 宽度 的 刻度 为 kd <- c(0.3,0.4,0.5,0.6,0.7,0.8)。 调 用 函数 的 语句 如 图 5 所 示 。 
source("samplesize LMEM.R") 

N <- 1000 

I «- c(10,30,50,70,100,200) 

J <- c(40,80,120,200,300,400) 

P1 « 0.5 

P2 «- 0.5 

#input 95%CI breaks 

kd <- c(0.3,0.4,0.5,0.6,0.7,0.8) 

?zModell 
getModelOne(I,J,P1,P2,N,0.5775,0,0.223098,0.24948,0.779,0.01706) 


generatePicData("modelOne_evaluation_accuracy",kd,c(0, max(I)),c(0, max(J)),LJ,I) 
图 5 实例 演示 调用 函数 开展 样本 量规 划 语 句 


最 后 ， 运 行程 序 得 到 评价 结果 文件 “modelOne evaluation accuracy.csv”， 和 检验 力 +CI 
Ais 


宽度 等 高 线 图 ( 见 图 68. 根据 图 中 所 示 , 在 满足 检验 力 大 于 等 于 0.8 的 标准 的 情况 下 , 95%CI 
宽度 均 小 于 等 于 0.6， 则 最 小 的 推荐 样本 量 为 :被 试 量 为 20 时 ， 共 需要 80 个 试 次 ;被 试 量 


为 30 时 ， 共 需要 60 个 试 次 ; 被 试 量 为 70 时 ， 共 需要 40 个 试 次 。 


co 


此 无 法 


于 本 例 中 没有 同时 满足 检验 力 大 于 等 于 0.8 并 且 所 有 随机 效应 估计 值 mbias 小 于 0.1 的 条 件 
生成 检验 力 + 随 机 效应 估计 准确 性 +CI 宽度 等 高 线 图 。 
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水 平 1 样本 量 


10 30 50 70 


100 
水 平 2 样本 量 


图 6 实例 演示 检验 力 +CI 宽度 等 高 线 图 


7.1 主要 研究 结果 


95% #18 区 间 宽 度 


本 研究 针对 线性 混合 效应 模型 , 采用 模拟 方法 ,以 被 试 内 实验 效应 和 被 试 间 变 量 的 调节 


效应 为 例 ， 实 现 基于 检验 力 与 效应 量 准确 性 分 析 的 样本 量规 划 。 并 通过 两 个 模拟 研究 ， 考察 


实验 效应 、 随 机 斜率 大 小 、 被 试 变量 类 型 和 是 否 为 3 
线 图 在 样本 量规 划 中 应 用 。 虽 在 为 实践 研究 者 基于 具体 下 


ope AE 
CI 宽度 等 高 


供 方法 指导 和 便利 工具 。 研 究 得 到 的 主要 结果 如 下 。 
第 一 ， 从 收敛 情况 来 看 ， 对 于 模型 1 来 说 ， 基 本 不 存在 收敛 问题 。 对 于 模型 2 来 说 ， 当 
随机 斜率 方差 小 时 ， 部 分 条 件 下 会 存在 一 定 程度 的 不 收敛 问题 。 


NS 


F 衡 设计 对 样本 量 推 荐 结果 的 影响 , 说 明 


究 实 现 样 本 量规 划 提 


第 二 ， 从 检验 力 来 看 ， 效 应 量 越 大 ,检验 力 越 大 。 变 量 类 型 为 分 类 变量 时 的 检验 力 低 于 
连续 变量 。 平衡 设计 下 的 检验 力 普 裔 大 于 非 平衡 设计 下 的 结果 。 此 外 ,检验 力 与 样本 量 的 关 


系 还 受 所 考察 效应 所 属 水 平 的 影响 。 水 平 1 自 变量 效应 的 检验 力主 要 受 水 平 1 样本 量 影响 ， 


水 平 2 自 变量 效应 的 检验 力主 要 受 水 平 2 样本 量 影响 。 两 个 水 平 的 样本 量具 有 一 定 程 度 的 补 
偿 作用 ， 增 加 关注 效应 所 在 水 平 的 样本 量 能 更 好 地 补偿 另 一 水 平 小 样本 量 的 问题 。 


第 三 ， 从 效应 量 及 其 标准 误 估计 准确 性 来 看 ， 在 拟 合 模型 定义 准确 的 情况 下 ， 固定 效应 


点 估计 值 都 较 准 确 。 但 是 ， 其 CI 宽度 会 受到 是 否 为 平衡 设计 和 随机 效应 的 影响 。 非 平衡 设 
计 下 的 CI 普遍 更 宽 。 对 于 水 平 2 变量 的 调节 效应 ， 


计 的 标准 误 


第 四 ， 从 随机 效应 估计 准确 性 


成 大 。 各 条 件 下 效应 量 估 计 标 准 误 的 ; 准 
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£t. 4 


都 较 高 。 


来 看 ， 残 差 方 差 佑 计 准 确 性 都 较 高 


随机 斜率 方差 越 大 ，CI 越 宽 ， 效 应 量 


o BELARUS 


n 


E 和 随机 斜率 


方差 估计 准确 性 会 受 是 否 为 平衡 设计 和 随机 斜率 方差 大 小 的 影响 。 对 于 仅 含 被 试 内 自 变量 的 
模型 ， 非 平衡 设计 下 随机 截 距 方差 和 随机 斜率 方差 的 估计 准确 性 更 低 。 随 机 斜率 方差 越 大 ， 随 
机 截 距 方差 的 估计 准确 性 越 低 ， 随 机 斜率 方差 的 估计 准确 性 越 高 。 随 机 斜率 方差 小 时 ,会 高 
估 随 机 斜率 方差 ， 随 机 斜率 方差 大 时 ， 会 高 估 随 机 截 距 方差 。 


zu 


[m3 


72 实践 建议 


本 研究 期 望 以 两 种 较 典型 的 线性 混合 效应 模型 为 例 , 说 明 规 划 样 本 量 的 方法 。 基 于 研究 
过 程 和 结果 ， 提 出 以 下 建议 。 
首先 ， 样 本 量规 划 需 同时 结合 检验 力 与 效应 量 准 确 性 分 析 结 果 。 传 统 的 样本 量规 划 主 
要 基于 检验 力 分 析 展 开 ( 例 如 , Schultzberg & Muthén, 2018), 确保 推荐 样本 量 能 够 满足 检验 力 
要 求 (0.8 及 以 上 )。 但 是 ， 随 着 目前 越 来 越 多 的 学 术 期 刊 和 研究 机 构 呼 吁 在 报告 显著 性 的 基 
础 上 ,报告 效应 量 及 其 CI, 对 效应 量 估 计 准 确 性 的 要 求 也 日 益 受 到 重视 (Maxwell et al., 2008)。 
其 实 ， 基 于 检验 力 与 基于 CI 宽度 规划 样本 量 既 有 联系 ， 又 有 区 别 。 两 种 方法 的 联系 在 于 ， 
无 论 是 基于 检验 力 还 是 CI 宽度 规划 样本 量 , 都 与 效应 量 的 标准 误 有 关 。 在 固定 效应 模型 下 ， 
CI 可 以 定义 为 [T 一 1.96SE ,T +1.96SE ](Cr 表示 效应 量 估 计 值 ,SE 表示 
标准 误 )。 在 随机 效应 模型 下 ， 随 机 效应 的 方差 部 分 会 加 入 到 标准 误 的 计算 中 ， 因 此 ， 与 固 
Q 定 效 应 模型 相 比 ， 会 得 到 更 大 的 标准 误 (SE ”*)， 此 时 效应 量 的 cl[T 一 
2 1.950858  *,T +1.96SE JAER. 无 论 是 固定 效应 模型 还 是 随机 效应 模型 ， 
«9 效应 量 的 标准 误 越 小 ， 效 应 量 估计 值 的 CI 就 越 窗 ， 效 应 量 的 估计 值 就 越 准确 。 在 假设 效应 
= 量 不 为 0 的 情况 下 , 越 窗 的 CI 就 越 不 可 能 包括 0, 会 得 到 更 大 的 检验 力 (Cohn & Becker, 2003). 
© 两 种 方法 的 区 别 在 于 ， 真 实 的 总 体 效 应 量 越 大 ， 其 CI 就 越 不 可 能 包括 0， 因 此 检验 力 越 大 ; 
但 CI 宽度 不 受 影响 。 因 此 ， 效 应 量 越 大 ， 基 于 检验 力 规划 的 样本 量 越 小 ， 而 基于 CI 宽度 规 
划 的 样本 量 不 变 ， 这 也 与 本 研究 结果 一 致 。 本 研究 发 现 ， 基 于 检验 力 分 析 与 效应 量 估 计 准 确 
性 推荐 的 样本 量 不 一 定 相 等 。 例 如 ， 从 研究 一 的 图 2(b) 中 发 现 ， 在 水 平 1 自 变量 效应 量 中 等 
的 情况 下 ， 当 水 平 2 样本 量 为 50 时 ， 水 平 1 只 需要 30 个 试 次 ， 就 能 保证 检验 力 大 于 0.8。 
但 此 时 实验 效应 的 效应 量 估计 值 CI 宽度 为 0.7 左右 ， 大 于 可 接受 的 最 宽 CI 宽度 。 因 此 ， 应 
当 同 时 结合 二 者 结果 确定 推荐 的 样本 量 。 
其 次 ， 在 基于 模拟 方法 进行 样本 量规 划 时 ， 应 当 谨 慎 确 定 产 生 数 据 模 型 的 参数 。 通 过 
检验 力 与 效应 量 准 确 性 分 析 开 展 样 本 量规 划 需 要 研究 者 预先 设 定 一 些 模 型 参数 (如 预期 效应 
量 ，ICC 等 )， 以 便 基于 特定 模型 产生 数据 。 特 别 说 明 的 是 ， 本 研究 主要 目的 是 说 明 样 本 量 
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规划 的 方法 及 CI 等 高 线 图 的 使 用 ， 参 数 设置 不 一 定 代 表 实 际 中 的 大 多 数 情况 。 在 实际 研究 
中 ,研究 者 可 以 从 前 人 已 发 表 的 类 似 研究 ， 自 己 的 预 研究 ， 相 关 主 题 的 元 分 析 结 果 , 或 者 由 
同 领域 专家 确定 最 小 的 重要 效应 来 获得 这 些 参 数值 (Pek & Park, 2019)。 然 而 ， 也 有 研究 者 指 


出 ， 这 种 直接 使 用 效应 量 点 估计 值 代替 其 真 值 (预期 效应 量 ) 的 方式 忽略 了 其 不 确定 性 


(uncertainty with regard to the unknown population effect size, Pek & Park, 2019), 会 得 到 有 偏差 
的 结果 。 因 此 ， 一 些 研 究 者 提倡 使 用 考虑 了 不 确定 性 问题 的 方法 (如 贝 叶 斯 混合 方法 ，Pek & 
Park, 2019) 开 展 样本 量规 划 。 

然后 ， 实 践 研究 者 可 以 根据 具体 研究 需要 ， 结 合 本 研究 提出 的 两 种 CI 宽度 等 高 线 图 确 
定 推荐 的 样本 量 。 本 研究 参考 Baker 等 (2021) 检 验 力 等 高 线 图 的 思路 ， 提 出 CI 宽度 等 高 线 
图 ,能够 便于 研究 者 同时 参考 多 种 要 求 ,找到 最 合适 的 样本 量 。 研究 者 可 根据 实际 研究 对 结 
果 的 要 求 ， 确 定 选用 某 种 CI 宽度 等 高 线 图 。 如 果 研 究 者 仅 关注 检验 力 和 效应 量 估 计 的 准确 
性 ， 可 选用 检验 力 +CI 宽度 等 高 线 图 。 如 果 研 究 者 在 此 基础 上 ， 还 关注 随机 效应 估计 的 准确 
性 ,以便 对 个 体 差异 的 原因 进行 进一步 分 析 ( 如 应 用 混合 效应 均值 一 一 方差 模型 ，Williams et 
al., 2021)， 或 者 进一步 准确 计算 包含 随机 效应 的 R “指标 (例如 , Rights & Sterba, 2019)， 可 
以 选用 检验 力 + 随 机 效应 估计 准确 性 +CI 宽度 等 高 线 图 。 对 于 CI 宽度 , RIT AT WB AS 
究 的 做 法 ， 也 可 以 参考 前 人 研究 中 效应 量 的 CI 宽度 ， 或 结合 自己 研究 中 效应 量 报告 精度 的 
需要 确定 临界 值 。 

最 后 ， 在 实际 研究 中 ， 样 本 量规 划 是 结合 检验 力 、 效 应 量 准确 性 与 研究 成 本 等 的 综合 
考虑 。 如 果 仅 考虑 检验 力 和 效应 量 准确 性 ,往往 会 导致 规划 的 样本 量 很 大 。 较 大 的 样本 量 会 
带 来 研究 成 本 的 显著 增加 。 尤 其 是 对 于 一 些 人 力 、 物 力 成 本 较 大 的 研究 (例如 ， 应 用 功能 性 
磁 共振 成 像 的 研究 等 )， 大 幅 增 加 被 试 量 往往 不 现实 。 因 此 ， 一 些 研究 者 提出 了 结合 研究 成 
本 函数 综合 得 到 推荐 样本 量 的 方法 (例如 , Baker et al., 2021)， 以 保证 样本 量 既 能 够 满足 检验 
力 等 要 求 ， 又 使 得 研究 成 本 尽 可 能 最 小 。 例 如 ， 在 Baker 等 (2021) 开 发 的 网 页 中 ， 就 结合 了 
每 名 被 试 的 成 本 , 计算 推荐 样本 量 。 该 网 页 中 得 到 的 推荐 样本 量 是 检验 力 达 到 80% 且 I x 
(J + 成 芭 最 小 的 点 。 除 了 研究 成 本 ， 在 实际 中 不 同 研究 确定 样本 量 会 结合 不 同 的 研究 
限制 ， 并 有 优先 考虑 的 要 求 顺序 等 级 。 应 用 研究 者 可 结合 具体 研究 需求 ， 在 本 研究 提供 的 方 
法 基础 上 开展 样本 量规 划 。 


zu 


=~ 


7.3 未 来 研究 展望 


本 研究 具有 一 定 的 局 限 性 , 未 来 研究 可 以 从 三 个 方面 加 以 改进 。 首 先 ， 本 研究 的 模拟 丰 
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究 只 考察 了 实验 效应 、 随 机 斜率 大 小 、 被 试 变量 类 型 、 是 否 为 平衡 设计 的 影响 ， 很 多 因素 设 
置 为 固定 水 平 。 未 来 研究 可 考察 随机 截 距 和 随机 斜率 的 协 方差 , 刺激 的 随机 效应 方差 等 因素 
对 检验 力 和 效应 量 准确 性 的 影响 ， 获 得 更 加 丰富 的 结果 。 其 次 ， 本 研究 以 刺激 嵌 套 于 实验 条 
件 , 并 且 刺 激 和 实验 效应 没有 交互 的 被 试 内 实验 设计 为 例 探讨 样本 量规 划 的 问题 , 并 假设 实 
验 条 件 是 含有 两 个 类 别 的 分 类 变量 , 因 变 量 是 连续 变量 。 未 来 研究 可 以 拓展 到 其 他 类 型 的 实 
验 设 计 , 或 者 自 变 量 为 连续 变量 ， 因 变量 为 分 类 变量 等 情境 ,探讨 基于 线性 混合 效应 模型 的 
样本 量规 划 ， 丰 富 函 数 功能 。 最 后 ， 本 研究 没有 考虑 预期 效应 量 的 不 确定 性 问题 ,不 能 反映 
实践 中 研究 设计 面临 的 现实 困境 。 未 来 研究 可 以 借鉴 Pek 和 Park(2019, 2023) 的 思路 ， 通 过 


检验 力 和 效应 量 准确 性 的 分 布 实现 样本 量规 划 。 
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Abstract 


Hierarchical data, which is observed frequently in psychological experiments, is usually analyzed 
with the linear mixed-effects models (LMEMs), as it can account for multiple sources of random 
effects due to participants, items, and/or predictors simultaneously. However, it is still unclear of 
how to determine the sample size and number of trials in LMEMs. In history, sample size planning 
was conducted based purely on power analysis. Later, the influential article of Maxwell et al. 
(2008) has made clear that sample size planning should consider statistical power and accuracy in 
parameter estimation (AIPE) simultaneously. In this paper, we derive a confidence interval width 
contours plot with the codes to generate it, providing power and AIPE information simultaneously. 
With this plot, sample size requirements in LMEMs based on power and AIPE criteria can be 
decided. We also demonstrated how to run sensitivity analysis to assess the impact of the 
magnitude of experiment effect size and the magnitude of random slope variance on statistical 
power, AIPE and the results of sample size planning. 

There were two sets of sensitivity analysis based on different LMEMs. Sensitivity analysis I 
investigated how the experiment effect size influenced power, AIPE and the requirement of 
sample size for within-subject experiment design, while sensitivity analysis II investigated the 
impact of random slope variance on optimal sample size based on power and AIPE analysis for the 
cross-level interaction effect. The results for binary and continuous between-subject variables 
were compared. In these sensitivity analysis, two factors regarding sample size varied: number of 
subjects (7-10, 30, 50, 70, 100, 200, 400, 600, 800), number of trials (7-10, 20, 30, 50, 70, 100, 
150, 200, 250, 300). The additional manipulated factor was the effect size of experiment effect 
(standard coefficient of experiment condition= 0.2, 0.5, 0.8, in sensitivity analysis I) and the 


magnitude of random slope variance (0.01, 0.09 and 0.25, in sensitivity analysis IL). A random 
28 


slope model was used in sensitivity analysis I, while a random slope model with level-2 
independent variable was used in sensitivity analysis II. Data-generating model and fitted model 
were the same. Estimation performance was evaluated in terms of convergence rate, power, AIPE 
for the fixed effect, AIPE for the standard error of the fixed effect, and AIPE for the random effect. 

The results are as following. First, there were no convergence problems under all the 
conditions , except that when the variance of random slope was small and a maximal model was 
used to fit the data. Second, power increased as sample size, number of trials or effect size 
increased. However, the number of trials played a key role for the power of within-subject effect, 
while sample size was more important for the power of cross-level effect. Power was larger for 
continuous between-subject variable than for binary between-subject variable. Third, although the 
fixed effect was accurately estimated under all the simulation conditions, the width 95% 
confidence interval (95%width) was extremely large under some conditions. Lastly, AIPE for the 
random effect increased as sample size and/or number of trials increased. The variance of residual 
was estimated accurately. As the variance of random slope increased, the accuracy of the estimates 
of variances of random intercept decreased, and the accuracy of the estimates of random slope 
increased. 

In conclusion, if sample size planning was conducted solely based on power analysis, the 
chosen sample size might not be large enough to obtain accurate estimates of effects size. 
Therefore, the rational for considering statistical power and AIPE during sample size planning was 
adopted. To shed light on this issue, this article provided a standard procedure based on a 
confidence interval width contours plot to recommend sample size and number of trials for using 
LMEMs. This plot visualizes the combined effect of sample size and number of trials per 
participant on 95% width, power and AIPE for random effects. Based on this tool and other 
empirical considerations, practitioners can make informed choices about how many participants to 
test, and how many trials to test each one for. 

Key words linear mixed-effects models, multilevel models, power analysis, effect size, 


confidence interval width 
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